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一 种 云 存储 环境 下 的 资源 调度 改进 算法 


徐 建 鹏 ， 李 ” 欣 ， 赵 晓 凡 


(中 国人 民 公安 大 学 信息 技术 与 网 络 安 全 学 院 ,北京 102628) 


摘 要 : 如 何 将 用 户 的 海量 数据 以 最 小 的 耗 时 存储 到 数据 中 心 ， 是 提高 云 存储 效益 、 解 决 其 发 展 瓶 颈 所 需 考虑 的 关键 
问题 。 首 先 证 明了 云 存 储 环境 下 资源 调度 方案 的 存储 最 小 耗 时 间 题 属于 一 个 NPC 问题 , 再 针对 现 有 算法 对 存储 调度 因 
素 考 虑 不 全 面 、 调 度 结果 易 陷 入 局 部 最 优等 问题 ， 提 出 了 一 种 全 新 的 资源 调度 算法 。 该 算法 首先 利用 三 角 模糊 数 层次 
分 析 法 全 面 分 析 调度 影响 因素 ， 得 到 存储 节点 的 判断 矩阵 ， 用 于 构造 后 续 的 遗传 算法 目标 函数 ， 再 将 简单 遗传 算法 从 
解 的 编码 、 交 叉 变 异 操作 及 致死 染色 体 自我 改善 等 角度 进行 创新 ， 使 其 适用 于 云 存 储 环 境 下 的 大 规模 资源 调度 。 最 后 
与 OpenStack 中 的 Cinder 块 存储 算法 及 现 有 改进 算法 进行 了 分 析 比 对 ， 实 验 结果 验证 了 所 提 算 法 的 有 效 性 ， 实 现 了 更 
加 高 效 的 资源 调度 。 
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Improved resource scheduling algorithm in cloud storage environment 


Xu Jianpeng, Li Xin, Zhao Xiaofan 
(School of Information Technology & Cyber Security, People’s Public Security University of China, Beijing 102628, China) 


Abstract: How to store the user's massive data into the data center with the minimum time-consuming is the key issue to be 


ds considered in improving cloud storage efficiency and solving the bottleneck of its development. This paper first proved that the 


minimum storage time-consuming of resource scheduling scheme in cloud storage environment belongs to NPC problem. In 


Vview of the incomplete consideration of the existing Scheduling algorithms and the problem that the scheduling result tends to 


= _ fall into the local optimum, a new resource Scheduling algorithm was proposed. The algorithm firstly used the triangular fuzzy 


analytic hierarchy process method to comprehensively analyze the Scheduling effecting factors, the judgment matrix of storage 
nodes was obtained, which was used to construct the follow-up objective function of genetic algorithm, and then the Simple 
genetic algorithm was innovated from the perspective of encoding, cross-mutation operation and self-improvement of lethal 
chromosome so that it is suitable for cloud storage environment. Finally, this paper analyzed and compared the Cinder block 
storage algorithm in OpenStack and the existing improved algorithms. The experimental results verified the effectiveness of the 
proposed algorithm and achieved more efficient resource Scheduling. 
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方案 只 能 陷入 一 个 局 部 最 优 解 ， 即 并 非 是 最 快速 的 存储 方案 ， 
而 在 云 存储 PB 级 的 数据 量 下 ， 较 小 的 效率 提升 也 会 带 来 可 观 

作为 云 架 构 的 核心 支撑 ， 云 存储 的 运行 效率 直接 影响 着 整 ”的 收益 ， 提 升 用 户 体验 。 同 时 ， 云 存储 环境 下 的 资源 调度 也 是 
个 云 平 台 的 性 能 中。 在 现 有 的 主流 云 存储 架构 中 , 如 Apache 的 。” 一 种 复杂 的 离散 组 合 最 优化 问题 ， 即 属于 带 约束 的 大 规模 装 箱 


0 引言 


Hadoop distributed file systeml?\ Google 的 Google file systemD]、 问题 ， 在 高 复杂 度 的 解 空间 中 ， 本 文 无 法 找到 一 个 多 项 式 时 间 
Amazon 的 Dynamo 四 以 及 基于 OpenStack[ 开 源 框架 的 Swift、 算法 来 求 其 最 优 解 ， 因 此 往往 采用 启发 式 算法 来 求 近似 解 。 

Cinder 和 Ceph, 用 户 的 数据 通常 以 较为 简单 的 算法 存储 到 数据 虽然 目前 已 经 有 很 多 解 装 箱 问 题 的 启发 式 算法 ， 但 将 其 进 
中 心 的 存储 节点 中 ， 如 根据 剩余 存储 空间 、 数 据 的 距离 等 来 进 ” 行 创新 且 应 用 于 云 存储 环境 下 资源 调度 的 研究 仍然 不 足 。 王 勇 


行 选 择 ， 以 此 来 实现 负载 的 平衡 ， 但 并 未 对 网 络 延迟 、 带 宽 、 9 等 提出 了 一 种 基于 可 用 空间 和 IO 吞吐 的 多 维 离线 调度 算法 ， 
节点 内 存 使 用 率 等 其 他 重要 指标 进行 考虑 ， 这 将 导致 数据 存储 ”降低 了 活动 节点 数 ， 提 高 了 资源 利用 率 ， 但 其 考虑 的 指标 数 不 
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足 , 无 法 实现 更 全 面 的 分 析 。 同样 , 肖 博 外 在 其 文章 中 提出 了 一 
种 基于 三 角 模 糊 数 的 调度 算法 ， 实 现 了 较 高 效 的 资源 调度 ， 但 
其 仅 考虑 了 反 指 标 ， 且 将 待 存储 的 数据 作为 单独 的 个 体 来 进行 
决策 ， 未 从 全 局 的 角度 去 解 该 问题 ， 效 率 较 低 。 
针对 上 述 问题 ， 本 文 首先 在 理论 上 证 明了 云 存储 环境 下 资 
源 调 度 方 案 的 存储 最 小 耗 时 问题 属于 NPC 问题 ;其 次 ， 使 用 三 
角 模 糊 数 层 次 分 析 法 对 资源 调度 所 涉及 到 的 各 项 影响 指标 进行 
全 面 分 析 ， 构 造 出 存储 节点 的 判断 矩阵 ， 用 以 表示 影响 因素 之 
间 的 重要 性 关系 ， 该 矩阵 将 成 为 下 一 步 遗传 算法 中 目标 函数 的 
构造 依据 ;再 次 ， 云 存储 规模 一 般 较 大 ， 若 仍然 对 解 采 用 一 维 的 
二 进 制 编码 ， 则 空间 效率 较 低 外， 本 文 直接 利用 和 矩阵 作为 解 的 
染色 体 表 示 ， 通 过 矩阵 的 变换 来 实现 交叉 、 变 异 及 适应 度 计算 


“无 一 x el[a,b] 
bp—a 
1 
H(t)=1 Fe* -se* el (1) 
0, x¢[a,c] 


其 中 :qa <b<c, P 的 上 界 为 Cc， 中 值 为 b， 下界 为 4 。 一 般 


| 


有 (a, b,c ) 的 形式 来 表示 三 角 模糊 数 中 。 


1.3 ”遗传 算法 

遗传 算法 0 由 初始 化 、 个 体 评 价 、 种 群 进化 三 部 分 构成 ， 
其 中 初始 化 主要 构造 种 群 个 体 的 染色 体 ， 即 将 问题 的 解 进行 二 
进 制 编码 、 和 矩阵 编码 等 ， 个 体 评价 通过 将 染色 体 所 代表 的 解 代 


等 操作 ， 提 高 了 算法 效率 且 符 合 实际 应 用 ， 除 此 之 外 ， 为 加 速 
算法 的 收敛 ， 本 文 提出 了 一 种 基于 学 习 的 致死 染色 体 自我 改善 
算法 ， 该 算法 通过 致死 个 体 向 优质 个 体 学 习 的 方式 来 提高 整个 
种 群 的 质量 , 以 实现 更 快 的 寻 优 ,同时 保证 种 群 基因 的 多 样 性 。 

最 后 , 通过 与 OpenStack 中 Cinder 块 存储 算法 及 文献 [7] 中 算法 
的 实验 比较 ， 验 证 了 本 文 算法 的 有 效 性 与 高 效 性 。 


1 ”相关 理论 


1.1 NPC 问题 

NP (non-deterministic polynomial) 是 指 一 类 可 在 多 项 式 时 
间 内 ， 通 过 数值 运算 即 可 解决 的 问题 ， 即 NP 问题 的 解 能 够 在 
一 个 多 项 式 时 间 内 被 很 容易 地 验证 ， 所 谓 验 证 ， 即 将 一 个 解 代 
入 原 问题 , 可 以 判断 出 其 正确 性 。 更 进一步 , 如 果 对 于 一 个 NP 
类 问题 A, 其 他 所 有 的 NP 类 问题 都 能 够 在 多 项 式 时 间 内 规约 
到 A， 那 么 问题 A 就 是 NP-complete (NPC) 问题 。 由 此 ， 要 
证 明 某 一 个 问题 A 是 NPC 问题 通常 需要 两 步 :a) 需 证 明 问 题 A 
是 NP 问题 ， 即 问题 A 的 解 很 容易 被 验证 其 正确 性 ，b) 构 造 一 
个 多 项 式 时 间 内 的 变换 , 使 得 从 某 一 个 已 被 验证 过 的 NPC 类 问 
题 B 可 以 很 容易 地 规约 到 问题 A， 那 么 称 问题 A 为 NPC 问题 
[9] 


1.2 三 角 模 糊 数 层次 分 析 法 

通过 把 模糊 数学 509 的 方法 引入 到 层次 分 析 判 断 矩 阵 构 造 
中 ， 可 以 在 定量 分 析 时 充分 考虑 到 比较 判断 的 模糊 性 ， 使 判断 
矩阵 能 够 更 好 地 反映 客观 情况 ,同时 避免 了 一 致 性 检验 这 一 步 
又 ,这 种 方法 被 称 为 三 角 模 糊 数 层 次 分 析 法 ， 其 定义 如 下 : 


定义 1 若 对 于 论 域 A 上 的 模糊 集合 Pe 严 (4) ， 满 足 条 件 : 


存在 Xe A 使 得 L(xX)=1; 同时 对 于 任意 的 ye (0,1)， 


Bal 


三 角 模 糊 数 PP ， 失 求 国 


间 [x: Ma(x)> y] 是 闲 区 间 。 则 


Mil 
上 
[a 
4 


入 目标 函数 ， 所 得 到 的 结果 即 是 判断 种 群 中 个 体能 否 能 将 基因 
传递 到 下 一 代 的 重要 依据 ;种 群 进化 包括 选择 、 交 叉 与 变异 ， 
是 确保 基因 多 样 性 ,跳出 局 部 最 优 解 , 找到 全 局 最 优 解 的 关键 。 
其 原理 如 图 1 所 示 。 


(随机 产生 初始 种 群 】 
- J | 


计算 种 群 个 体 适应 度 | 


到 1 遗传 算法 原理 图 


2 ”问题 的 数学 模型 与 分 析 


2.1 问题 建 模 

云 存 储 环境 下 的 资源 调度 方案 的 存储 最 小 耗 时 问题 主要 
前 对 同一 时 刻 到 达 数 据 中 心 的 待 存储 数据 ， 采 用 合适 的 策略 将 
其 存储 到 节点 中 ， 以 期 得 到 最 小 的 存储 耗 时 。 


本 文 设 待 存储 的 数据 序列 为 臭 = 人 zz ， 且 


太 三 {5,170} 分 别 表示 某 个 数据 所 需要 占 


的 存储 空间 、 


内 存 大 小 以 及 网 络 资源 ， 设 现 有 的 存储 节点 序列 为 


Y= {yy,…, 六 且 yy ={,,M,N,} 分 别 表示 该 存储 


节点 所 具有 的 存储 空间 、 内 存 资源 及 网 络 资源 。 已 知 某 一 个 存 


储 方案 开 = (Kk , 访 ，…, 大 ) ,其 中 1 表示 待 存储 的 数据 序号 ， 


kk, 的 值 表示 该 数据 所 选择 存储 节点 的 序号 ， 对 于 该 方案 KK ， 
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需 满足 如 下 约束 : 
S51+5, + + 5 

Mm, +m,+…+m. (2) 
Ni 之 1. 十 1 十 … 十 1 


即 数 据 占用 的 资源 不 能 超过 存储 节点 所 具有 的 资源 。 为 充分 提 
高 存储 效率 ， 本 文 所 考虑 的 存储 耗 时 指 的 是 每 个 数据 存储 的 耗 
时 和 。 


T=min2 root G) 


其 中 :f(s)，t(m)，ti(n) 分 别 表示 该 数据 存储 过 程 中 的 数 


据 耗 时 《由 数据 的 大 小 、 距 离 所 产生 的 耗 时 ) 、 内 存 耗 时 〈 


节点 的 内 存 情况 所 造成 的 耗 时 ) 及 网 络 耗 时 《由 节点 的 网 络 情 


况 所 造成 的 耗 时 ) 。 
2.2 调度 影响 因素 分 析 

根据 实际 调研 情况 ， 本 文 假设 所 有 的 存储 节点 具有 相同 的 
IO 频率 , 据 此 ,所 需 考虑 的 因素 主要 包括 节点 指标 、 数 据 指标 
以 及 网 络 指标 三 个 方面 ， 其 中 节点 指标 细 分 为 节点 故障 率 、 剩 
余 存储 空间 、 内 存 占用 率 ， 数 据 指 标 由 数据 传输 距离 、 数 据 大 
小 构成 ， 网 络 指标 主要 为 节点 网 络 带宽 与 网 络 延迟 ， 有 具体 如 图 
2 所 示 。 


图 2 云 存 储 环境 下 的 资源 调度 问题 所 涉及 到 的 指标 


本 文中 ， 需 要 调度 的 资源 主要 为 节点 的 剩余 空间 、 内 存 与 
网 络 带宽 ， 内 存 占用 率 与 网 络 延迟 则 会 随 着 同时 或 连续 存 入 的 
数据 个 数 增加 而 提高 ,达到 一 定 程度 后 会 导致 数据 传输 的 失败 。 
而 其 他 的 调度 影响 因素 ， 则 作为 该 问题 的 约束 条 件 ， 以 罚 函 数 
的 形式 体现 在 目标 函数 中 。 


2.3 问题 复杂 度 分 析 
现 已 知 三 维 装 箱 问题 属于 NPC 问题 中 ， 由 此 给 出 如 下 定 


定理 1 云 存 储 环境 下 资源 调度 方案 的 存储 最 小 耗 时 问题 
为 NPC 问题 。 


证 明 a) 首 先 证 明 上 述 问 题 属于 NP 问题 。 假 设 随机 生成 一 个 


存储 方案 K' < 久 ，K = (Ch,Ko，…,,,) ， 本 文 只 需要 验证 


公式 (2) 中 的 各 约束 ， 即 可 在 多 项 式 算法 时 间 内 来 交 
是 否 属于 一 个 可 行 解 ， 因 此 该 问题 属 了 
b) 将 上 述 问 题 归 约 为 一 个 三 
归 约 为 待 放 置 包 
所 需 的 存储 空间 、CPU 资源 、 


FNP 问题 。 


高 ， 存 储 节 点 的 这 三 类 资源 可 
妆 约 为 已 装 入 箱子 内 的 盒子 的 总 容积 。 
现 有 的 数据 及 存储 节点 下 ， 是 否 存在 


Ses 


乍 其 月 干 | 
FT 法 


约 为 箱子 ， 


存储 数据 


| 断 该 方案 


佳 装 箱 问 题 , 待 存储 的 数据 X 可 以 
盒子 ， 云 存储 节点 了 可 归 
网 络 资源 可 归 约 为 盒子 的 长 、 宽 、 
看 做 箱子 的 长 、 宽 、 


高 ， 则 耗 时 
即 原 问题 可 转换 为 : 在 


时 《占用 容积 ) 小 于 1， 即 


Time(X,Y,K',L)<t 


其 中 工 表示 相关 的 约束 ,| 
问题 归 


此 可 以 在 


即 定理 1 得 到 了 证 明 。 


3 ”算法 实现 


3.1 三 角 模糊 数 层次 分 析 
本 文采 取 “1-9” 标 度 来 衡量 指标 的 重要 性 ， 且 通过 广泛 的 


种 存储 方案 使 得 最 终 耗 


E 多 项 式 时 间 内 将 三 旨 
约 到 云 存储 环境 下 资源 调度 方案 的 存储 最 小 耗 时 问题 上 ， 


售 装 箱 


模糊 数 提 


研 与 分 析 ， 对 每 两 个 调度 影响 
居中 ， 求 其 平均 可 得 表 1。 


寻 素 的 比较 者 


表 1 云 存储 环境 下 资源 调度 的 影响 因素 


调度 影 剩余 存 使 


选取 了 三 组 三 角 


网 络 


网 络 


0.38, Ci 0.27 
剩余 《 
空间 ”05 1 0.33 
内 存 使 。 (007 (1.03, (1 
率 1, 3.03 1 
由 0.42 1.03， 0.40 
数据 ( ( ( 


距离 0.5, 痪 0.5, 


大 小 2 1 
网 络 (093， (106 (1.14 
带宽 3.03 2 2 
网 络 (1.15 (1.41, (1.39 
延迟 4 3.03 2 


(1.09, 


(OT 


(0.78, 


也 和 


(1.37, 


根据 式 (4)， 求 取 每 个 影响 因素 相对 于 其 他 因素 的 综 


n> 
[Mal 
mh 


| 
9 = | 5 ,1, J =1,2,.……,n (4) 


i=] j=l 


Wn 
烛 

En 
HI 


其 中 :i 表示 第 i 个 影响 因素 相对 于 第 个 影响 因素 的 重要 


度 。 由 此 ， 本 文 根 据 表 1 数据 进行 计算 可 得 : 
1 1 
98.67 62.69 37.84 


Si = (30708104)e[ ] =(0.054,0.113,0.275) 


1 1 1 
98.67 62.69 37.84 


5, -64341666e| ]- (0.032,0.066,0.175) 


1 1 
98.67 62.69 37.84 


3 = (3890312098[ ] =(0.055,0.144,0.319) 


1 1 
98.67 62.69 37.84 


S,= 691583852)@| ] =(0.040,0.092,0.225) 


1 1 1 
98.67 62.69 37.84 


Ss = (6.02.8.501 39el ] =(0.061,0.136,0.301) 
1 1 


1 
Se » > 
98.67 62.69 37.84 


(5.93,1 1032509)el ] =(0.060,0.176,0.663) 


1 1 1 
98.67 62.69 37.84 


S =(8.7 Di7062460)g| ] =(0.088,0.272,0.650) 


P = (a,,b,,C, ) 为 两 个 


m 


定理 2 假设 P=(g,,b,,c,), 


三 角 模糊 数 ，V(P, > PP, ) 表 示 P, 大 于 


根据 式 (5) 计算 出 每 个 影响 因素 优 于 其 他 因素 的 纯 测量 度 ， 可 
得 : V(S > 8)=0.876，V(S > 5;)=0.903, V(S, > 5,)=0.773, 
V(S>9))=0.540 ， V(S,>5,)=0.720 ,， V(S, >5,)=0.606， 
V(S, >5,)=0.839 , V(S,>5;)=0.620 ,V(S, >56)=0.511, 

(Ss>=5)=0.890 ，V( 


Rs 


V(S,>5,)=0.297 ,V S;>5;)=0.643 ， 
V(S,>5,)=0.891 , V(S,>5;)=0.788 , V(S,>56)=0.663, 
V(S1>5,)=0.432 , V(S;>5;)=0.969 ，V(S; > )=0.858 ， 
V(S; > 8))=0.610，V(Ss> 9)=0.857， 其 余 比较 值 均 为 1。 


d(C)=V(S, = SS 93 93 )=0.540 


d(C,)=V(S, > 5,5,, NA S$, )=0.297 


d(C;)=V(S; >5,5,, D4, Ss, SS),)= 0.643 


d(C;)=V(S; > 599 SS 9)=0.610 
d(C,)=V(S, >5,S,,S3,Ss,56,5) )=0.432 


d(Cs)=V(S。 > 51,5,, S354,5,,5,;)=0.857 


A AAYN 


算法 


d(C,)=V(S, | 


对 其 做 归 一 化 处 理 : 


sum=0.540+0.297+0.643+0.432+0.610+0.857+1=4.379 


d(C )= 0540 -0.123 

Um 
a A le 0.147 

Sum SUm 

d(C,)=0432 -0099 d(C = -0 139 
SuUm SUm 

d(C,)= 1337 -0.196 d(C,)=— =0.228 
SuUum SuUum 

对 各 个 权 值 做 检验 有 : 


d(C)+d(C,)+ad (Cs)+a (C)+d (cs)+a (Ce)+d (Cc;) 
=0.123+0.068+0.147+0.099+0.139+0.196+0.228=1 

此 即 求 得 七 个 指标 的 相对 权重 分 布 ， 可 用 于 遗传 算法 
标 函数 的 构造 。 


3.2 ”遗传 算法 的 改进 
为 将 遗传 算法 充分 应 用 于 云 存 储 环境 下 资源 调度 中 ， 本 文 
提出 如 下 定义 : 


定义 3 待 存储 的 数据 序列 为 人 = {7 ,XX，.….,X,}, 可 提供 存 


储 服务 的 节点 序列 为 了 二 {y1,y，.….，》,,}， 若 妨 存储 在 y， 


中 ， 则 y= 二 1 ， 否 则 y= 0 。 设 矩阵 MM 表示 六 与 了 


之 间 的 一 种 存储 方案 ， 其 中 MX = xX;y; ， 则 可 得 : 


MY XY Xn 
SS BS ee. S 
M, = 2)1 X2y2 2 m 
Xn 1 Xn )2 0 Xn Vm 
且 满 足 : 
立交 =1] (6) 
j= 


以 上 定义 表示 ， 在 遗传 算法 的 初始 化 阶段 ， 本 文 即将 种 群 中 所 


有 的 个 体 编码 为 矩阵 M1 的 形式 ， 与 之 相对 应 的 ， 在 个 体 评 估 


阶段 ， 本 文 首先 需要 构建 云 存储 环境 下 资源 调度 方案 的 存储 最 
小 耗 时 间 题 的 目标 函数 Z, ， 可 得 
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也 =M, ®P’ + > yD, :w+ Size:ws 
i j=l 


P=[P,PB,…,P,] 


P= Space;:w, + Mem, .ws + NetB,;. we + NetD,: w+ 


py 六 久光 “Size; < Capacity, (8 


j=1 i=1 


(7) 


Fail.:w, 


) 


其 中 矩阵 书 表示 每 个 节点 的 代价 矩阵 , 运算 “ @ ”表示 在 基本 
的 矩阵 相 乘 运算 的 基础 上 增加 更 新 操作 ， 即 当 多 个 数据 存储 到 


一 个 节点 中 时 ， 需 要 对 节点 的 各 项 指标 进行 更 新 ,得 到 已， 且 


令 P = P。D ,表示 第 j 个 节点 距离 数据 中 心 根 节点 的 路 由 


跳 数 ，Size 表 每 个 数据 的 大 小 ，Capacity; 表示 第 j 个 节点 


的 初始 存储 空间 ，Space;、Mem;、Ne 


Kail 分 别 表示 剩余 存储 空间 、 内 存 使 用 率 、 


1B,、NetD,、 


网 络 带宽 、 网 路 


延迟 与 故障 率 的 归 一 化 后 的 得 分 ， 本 文 假设 所 有 的 节点 具有 相 


同 的 IO 频率 ， 所 以 从 整体 的 角度 来 看 ， 数 提 


调度 ， 因 此 设置 为 一 个 常数 Size ， Ww 为 各 


虽 的 大 小 不 会 影响 


影响 因素 的 权重 。 


为 实现 种 群 的 进化 ， 需 要 对 种 群 中 的 染色 体 进行 交换 与 变异 ， 


根据 矩阵 40 及 式 (7)(8) 的 相关 内 容 ， 提 出 如 


定义 4 设 存在 和 矩阵 了 为 hnXM 阶 初等 矩阵 ， 


下 逢 义 : 


则 称 种 群 中 个 体 


交换 后 的 结果 为 Mk = M :全 ， 将 染色 体 Mk 中 若干 行 中 的 


“1” 调整 为 “0”， 并 在 该 行 随机 选择 一 个 “0” 调整 为 “1”， 


称 之 为 变异 。 


化 。 而 对 于 进化 过 程 中 所 产生 的 致死 染色 体 ， 


通过 定义 4 即 可 在 保证 式 (6) 成 立 的 基础 上 ,完成 种 群 的 进 


本 文 提取 了 一 种 


基于 学 习 的 致死 染色 体 自我 改善 算法 ， 首 先 有 如 下 定义 : 


定义 5 种 群 中 适应 度 排 名 前 10% 的 个 体 染 色 体 为 优质 染色 体 


MY ， 种 群 中 适应 度 排名 后 10% 及 不 符合 式 〔8) 的 染色 体 称 


为 致死 染色 体 M 5 。 


该 算法 首先 为 每 个 致死 染色 体 从 优质 染色 体 集 合 中 选择 一 个 作 


为 学 习 模板 , 若 两 者 在 相同 基因 位 置 的 值 都 为 1, 则 将 其 保留 ， 
然后 根据 学 习 率 随 机 从 学 习 模 板 中 选择 若干 值 为 1 的 基因 ， 将 
其 蔡 换 到 致死 染色 体 的 对 应 位 置 中 ， 则 该 行 原 为 1 的 基因 值 蔡 
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到 该 种 群 的 一 个 综合 优质 染色 体 M4 ， 并 将 M46 
的 基因 位 置 所 对 应 的 致死 染色 体 基因 位 置 的 值 置 为 1 
该 行 原 为 1 的 基因 蔡 换 为 0。 该 算法 在 保证 种 群 基因 


中 值 为 1 
， 相 应 地 
多 样 性 的 


基础 上 提高 了 基因 质量 。 最 终 算法 在 种 群 的 最 优 染 色 
度 变 化 小 于 1 或 者 迭代 次 数 大 于 100 时 停止 。 其 伪 代 
示 : 


输入 : MY、M2 


输出 ， 经 过 学 习 后 的 染色 体 MB 


LearnningM ©, MS ) 


{ 

M = SUM(M®,MS,..., MS) 
if :M(xy,)=N 

M’”° (xy,)=1; 


fort=1i<M:i++) 
{ 


了 = randomlN }: 
:MI (ay,)— MF (Ky)—1 
MP (x y, )= l; 


MP (x, y,) 二 Copy(M° (x, 多 ) StudyRate} 


了 


if :M”°(x.y,)==1: 
MP (y= 


} 
4 ”实验 与 分 析 


4.1 实验 设计 


体 的 适应 
码 如 下 所 


} 


本 文 对 提出 的 云 存储 环境 下 的 资源 调度 算法 的 有 效 性 进 


行 分 析 , 与 Cinder 块 存储 算法 及 文献 [7] 的 相关 算法 进 
对 比 ， 同 时 实现 了 代码 设计 ， 完 成 了 实验 测试。 


行 了 效率 


实验 硬件 环境 : Intel Core i7-6700HQ 四 核 处 理 器 , 8GB 内 


存 ，Linux Ubuntu14.04 操作 系统 。 


软件 环境 : VMware Workstation Pro，C++ 语 言 。 


实验 数据 集 : 本 文 在 程序 设计 中 分 别 使 用 StorageNode 类 


与 UserData 类 的 实例 来 模拟 所 有 的 存储 节点 与 待 存储 数据 。 


StorageNode 类 中 包含 了 剩余 空间 、 内 存 占 用 率 、 网 络 延 迟 、 网 


络 带宽 、 故 障 率 五 个 指标 ，UserData 类 中 包含 了 数据 


换 为 0， 最 后 ， 将 所 有 优质 染色 体 矩 阵 进行 累加 ， 并 将 累加 值 
等 于 优质 染色 体 个 数 的 基因 进行 保留 且 置 为 1, 其 余 置 为 0, 得 


大 小 与 距 


离 两 个 指标 项 ， 且 在 初始 化 阶段 ， 该 七 个 指标 的 值 均 
数 产生 。 


随机 郴 
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第 一 组 数据 集 : 实例 化 生成 1000 个 UserData 类 实例 及 100 
个 StorageNode 类 实例 , 即 要 在 100 个 存储 节点 中 存 入 1000 个 
用 户 数据 。 且 保证 数据 总 大 小 小 于 节点 总 空间 。 


第 二 组 数据 集 : 实 例 化 生成 100 个 UserData 类 实例 及 1000 
个 StorageNode 类 实例 , 即 要 在 1000 个 存储 节点 中 存 入 100 个 
用 户 数据 。 且 保证 数据 总 大 小 小 于 节点 总 空间 。 


本 实验 使 用 两 组 数据 集 分 别 进行 10 组 实验 ， 且 为 确保 可 
比 性 ， 每 组 实验 初始 状态 相同 《采用 相同 的 数据 实例 与 节点 实 
例 )， 每 组 实验 中 包含 了 10 次 测试 , 统计 每 组 实验 的 平均 耗 时 
作为 该 组 对 应 算法 的 实验 结果 ， 该 耗 时 为 算法 本 身 的 运算 耗 时 
与 存储 过 程 产生 的 耗 时 之 和 ， 其 中 存储 耗 时 主要 由 七 个 影响 指 
标 产生 。 同 时 ， 为 充分 模拟 云 环 境 的 并 行 存储 模式 ， 所 有 指标 
都 会 随 着 程序 的 进行 而 及 时 更 新 , 且 该 程序 采用 并 行 方式 运行 。 


4.2 实验 结果 分 析 
第 一 组 数据 集 的 实验 结果 如 图 3 所 示 ， 其 中 横 坐 标 表 示 实 
伶 组 数 ， 纵 坐标 表示 算法 本 身 的 平均 运算 耗 时 〈s) 。 


图 3 第 一 组 数据 集 下 三 种 算法 的 平均 计算 耗 时 比较 


相 比 于 Cinder 与 文献 [7] 算 法 , 本 文 算法 考虑 了 更 加 全 面 的 
调度 影响 因素 ， 且 使 用 了 改进 的 遗传 算法 来 求 其 近似 最 优 解 ， 
因此 在 调度 策略 的 计算 上 消耗 了 更 多 时 间 。 接 下 来 使 用 第 二 组 
数据 集 来 测试 算法 的 整体 耗 时 ， 即 算法 运算 耗 时 与 执行 存储 耗 
时 之 和 ， 结 果 如 图 4 所 示 。 


cinder 算 法 --- 论文 7 算法 一 本 文 算法 


图 4 第 二 组 数据 集 下 三 种 算法 的 整体 平均 耗 时 比较 


于 未 考虑 其 他 调度 影响 指标 ， 数 据 存 入 高 网 络 延迟 、 高 
内 存 占 用 节点 等 情况 会 导致 耗 时 的 大 幅 增加 ,因此 Cinder 算法 
的 表现 并 不 稳定 ， 而 文献 [7] 算 法 在 综合 所 有 正 指标 后 实现 了 耗 
时 的 降低 与 稳定 。 本 文 算法 相 较 另 外 两 种 算法 ， 耗 时 分 别 降低 
了 38.7% 和 18.8%， 实 现 了 更 加 高 效 的 云 存储 环境 下 的 资源 调 
度 。 根据 式 (3) 可 知 总 耗 时 主要 由 算法 运行 耗 时 及 存储 过 程 中 
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的 数据 耗 时 、 内 存 耗 时 和 网 络 耗 时 组 成 ， 本 文 对 第 二 组 实验 结 


果 进 行 深 入 分 析 , 研究 三 种 算法 在 存储 过 程 中 的 耗 时 分 布 情况 ， 
分 析 本 算法 效率 提升 的 直接 原因 ， 具 体 如 图 5 所 示 


存 耗 时 网 络 耗 时 


加 cinder 算 法 四 论文 7 算法 加 本 文 算法 


图 5 第 二 组 数据 集 下 三 种 算法 的 存储 过 程 中 的 耗 时 分 布 情况 


本 文 算法 相 较 于 另外 两 种 算法 , 效率 的 提升 主要 体现 在 内 
存 耗 时 与 网 络 耗 时 上 。 对 于 Cinder 算法 ， 剩 余 存 储 空间 大 的 节 
点 可 能 不 具备 良好 的 网 络 状态 或 内 存 状态 ， 从 而 导致 耗 时 的 增 
加 ， 文 献 [7] 算 法 由 于 考虑 的 指标 因素 不 全 面 ， 调 度 算法 未 考虑 
全 局 最 优 解 ， 因 此 也 不 能 很 好 地 提高 效率 。 本 文 算法 在 全 面 分 
析 调 度 影响 因素 的 基础 上 采用 全 局 寻 优 的 算法 进行 求解 ， 充 分 
考虑 了 各 影响 因素 之 间 的 平衡 关系 ， 从 而 能 够 最 大 限度 地 优化 
调度 方案 ， 实 现 效 率 的 提升 。 


和 


为 充分 分 析 本 文 算法 ， 实 验 将 所 有 的 节点 状态 进行 优化 ， 
即 确保 节点 内 存 占用 率 、 网 络 延迟 等 指标 在 初始 化 时 均 处 于 良 


好 状态 ， 使 用 第 一 数据 
时 情况 ， 可 得 图 6。 


进行 十 组 实验 ， 比 较 三 种 算法 的 总 耗 


em 


一 -cinder 算 法 ~~- 论文 7 算法 一 本 文 算法 


加 6 在 节点 指标 优化 的 情况 下 的 各 算法 耗 时 


由 图 6 可 得 ， 在 存储 节点 均 处 于 较 好 的 状态 时 ，Cinder 存 
储 将 不 会 存在 高 内 存 占用 率 或 高 网 络 延迟 的 情况 ， 而 相 较 于 本 
文 算法 的 复杂 度 ，Cinder 算法 耗 时 更 少 ， 从 而 在 整体 上 降低 总 
耗 时 。 但 云 储存 规模 庞大 且 复杂 ， 存 储 节点 随时 处 于 读 写 、 删 
除 、 数 据 迁 移 等 操作 中 ， 高 内 存 占 用 与 高 网 络 延迟 的 情况 较为 
普遍 ， 因 此 本 文 算法 仍 具有 很 好 的 适用 性 。 


5 ”结束 语 
本 文 针 对 目前 云 存 储 环境 下 资源 调度 研究 不 够 深入 、 调 度 


算法 不 够 完善 的 问题 ， 提 出 了 一 种 高 


效 且 适用 于 云 存储 的 全 新 
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资源 调度 算法 ， 并 对 算法 进行 了 实现 。 实 验 数 据 表明 本 文 算法 
在 现 有 算法 基础 上 实现 了 效率 的 提升 ， 具 备 有 效 性 与 高 效 性 ， 
为 提高 用 户 体验 与 云 存储 效益 提供 了 有 力 保障 。 但 另 一 方面 ， 
本 文 算法 在 调度 方案 的 计算 耗 时 方面 仍 有 待 提高 ， 需 进一步 优 


化 算法 流程 ， 从 遗传 算法 的 初始 种 群生 成 及 个 体 的 基因 编码 结 
构 入 手 ， 设 计 更 加 快速 的 种 群 进化 方式 ， 以 实现 更 加 稳定 、 高 
效 的 云 存 储 环境 下 的 资源 调度 。 
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